Lecture 9
上一节课我们引入了一个新的概念:mixed strategies。这也是接下来几节课的重点。
表示使用每一个策略的概率
- 表示对于pure strategy 的概率是
- 可以是0,例如(0.5, 0.5, 0); 也可以是1,这个时候表示pure strategy.也就是说我们之前所有的博弈策略都是它的子集。
payoffs from the mixed strategy:
The expected payoff of the mixed strategy 就是期望。
计算混合策略的期望例子
a | b | A, B选择的概率 | |
---|---|---|---|
A | 2, 1 | 0, 0 | |
B | 0, 0 | 1, 2 | |
a, b选择的概率 |
因此玩家1的mixed strategy p = (1/5, 4/5)
玩家2的mixed strategy q = (1/2, 1/2)。
那么如何计算p的payoffs呢?
分成两部,首先计算pure strategy的期望,然后计算混合期望:
- 计算混合期望:
如何混合策略是最佳对策,那么混合策略中的每一个pure strategy 也必须是最佳对策。也就是说,每一个都必须产生相同的payoffs。
解释:如果有一个pure strategy不是最佳对策,那么就会拉低其他的平均期望。
定义:A mixed strategy profile 在NE 当且仅当对每一个i,都是最佳对策。
网球比赛
l | r | L, R选择的概率 | |
---|---|---|---|
L | 50, 50 | 80, 20 | p |
R | 90, 10 | 20, 80 | 1-p |
l, r选择的概率 | q | 1-q |
找到纳什均衡点,那么玩家1的两个pure strategy的期望必须相等!
令两者相等(也就是对于任意一种pure strategy,它们的payoffs必须相等):
, 得到
同理可以求得p = 0.7
因此
如果发现玩家2打左边的概率大于0.6,那么玩家1应该往右打,这样可以增加得分的概率。(可以通过计算获得)
证明上面状态是纳什均衡点
我们将上面的概率带入:
玩家1的payoffs: L -> 50*0.6+80*0.4 = 0.62
R -> 0.62
因此mixed strategy payoffs = 0.62*0.7+0.62*0.3 = 0.62
我们改变(p, 1-p),发现无论怎么改变,总期望的收益都是不变的,因此没有严格大于其期望的策略,使得它能够大于0.62。
微小扰动
现在玩家2请了教练,增加了自己左手的能力,新的收益矩阵如下:
l | r | L, R选择的概率 | |
---|---|---|---|
L | 30, 70 | 80, 20 | p |
R | 90, 10 | 20, 80 | 1-p |
l, r选择的概率 | q | 1-q |
通过计算,p,q都会下降,这表明大家都会更多的通过右手进行比赛。
mixed strategy examples
- 足球射门
- 911后安检仪数量不足,机场放安检仪:他们就是随机进行检查。